Buzz - 基于OpenAI Whisper语音识别模型研发的声音转文本技术，简单好用且免费开源

浏览：1655次阅读

近期，AI 领域正盛极一时，各类创新工具如雨后春笋般涌现出来，震撼与担忧齐头并进。今日，我将向各位介绍一款能够大幅提升工作效率的优秀 AI 工具——Buzz。

Buzz 概述

Buzz 作为一款智能的语音转文本字幕工具，利用 OpenAI 开源的 Whisper 基础语音识别模型，将音频或视频素材快速地自动化转化为包含精确时间戳的字幕，其中所展现的效率优势显著，堪称是生产过程中提高效率的得力助手。

github 项目地址【点击前往】

Whisper 是 Open AI 于 2022 年 9 月 21 日正式公开发布 Whisper 神经网络，声称其英文语音识别精度已达到人类水平，且同时支持 98 种其他语言的自动语音识别功能。

Whisper 系统提供的自动语音识别（Automatic Speech Recognition，ASR）模型是经过精心优化和训练，以执行语音识别和翻译任务，能够将各种语言的语音转换为文本形式，并将这些文本翻译成英文。

Whisper 是一种高度可扩展的语音识别模型。它使用多个大规模数据集进行训练，是一种多任务模型，能运行多语言语音识别、语音翻译和自然语言理解等多项任务。

接下来介绍 Buzz 的安装，在此之前一样要安装 ffmpeg，复制 ffmpeg 的 bin 文件夹路径。然后进入“高级系统设置”选择“环境变量”，选择“Path”点击新建，然后把 ffmpeg 的 bin 文件夹路径添加进去。

然后去 Buzz 开源地址下载对应系统版本的安装包，下载地址【点击前往】，下载完成后直接安装即可。

打开 Buzz 的界面非常简单，话筒图标是直接调用录音软件录音转换字幕。+ 按钮则是选择语音或视频文件进行转换。

软件选项也很简单选择对应的语言和选择的模型进行转换即可，初次使用需要从网上下载模型到本地。如果有 OpenAI 的 API key，填入后可以获得更好的转录效果，API key 购买【点击前往】

转换速度取决于你使用的模型和硬件情况，效果和 whisper 一致。然后选择语言（也可以使用默认的自动识别），就会自动转录，等进度为 100% 后，双击就会看到识别的内容，支持将结果导出为 TXT 格式的纯文本或者是通用的 SRT 字幕文件，非常方便。

正文完

发表至：软件工具

2023-12-10

0

ChatGPT 语音功能完全免费了！安卓华为苹果手机ChatGPT APP安装方法